Техника sockpuppeting помогает обойти ограничения языковых моделей

Комментарии к записи Техника sockpuppeting помогает обойти ограничения языковых моделей отключены

В недавнем исследовании была представлена техника, известная как sockpuppeting, которая позволяет обходить ограничения 11 популярных языковых моделей (LLM) с использованием всего одной строки кода. Этот метод не атакует саму модель, а затрагивает способ работы некоторых API. Исследователи обнаружили, что через функцию assistant prefill можно подставить фразу, создающую видимость согласия модели на выполнение потенциально опасного запроса. Это приводит к тому, что модель продолжает генерировать запрещенный контент вместо стандартного отказа. По данным Trend Micro, наиболее уязвимой оказалась модель Gemini 2.5 Flash, в то время как GPT-4o-mini продемонстрировала наименьшую уязвимость. Уязвимые модели даже выдавали вредоносный код и раскрывали чувствительные данные. Для повышения безопасности исследователи советуют проверять порядок сообщений на уровне API и учесть возможности атак через assistant prefill в программах AI red teaming.

Похожие записи

Создать профиль



Войдите в свою учетную запись